阿里「通义千问」大模型-内测分享

Original 刘聪NLP NLP工作站 2024-04-07

终于在昨天晚上等到了邀请码，成功吃到第一手螃蟹，那么现在开始测试。“通义千问”是纯文本模型，输入和输出内容全是文本，与ChatGPT和ChatGLM模型一致，与GPT4和文心一言不同。

目前国内大厂，纷纷将大模型进行内测，堪称“百家争鸣”，只要是模型敢放出来测试，还是需要肯定的，总比那种，只有PR文或小视频，连内测都没有的要好很多。

「我只愿，后面穷人玩家也可以实现“大模型自由”。」

先说结论吧，感觉在代码生成上的效果上还很多提升空间，国粹的效果要好一些。之前对ChatGLM-130B模型也进行了内测，还是用之前的相同的问题，对“通义千问”模型进行测试。个人评测可能会有些片面，不喜勿喷！！

ChatGLM-130B内测结果：https://www.zhihu.com/question/589484629/answer/2935869281

PS：“通义千问”读起来好绕口呀。没有嘲讽的意思，能做出来大模型的，都是高玩。

先来一道写代码的题目，问：“我现在有张excel表，表头如下：世界排名、学校名称、地区、综合得分，写一个代码将学校名称后面加“*”并打印出结果。”生成方法是excel自己的操作，那么让它生成python代码，继续提问，“我现在有张excel表，表头如下：世界排名、学校名称、地区、综合得分，写一个python代码将学校名称后面加“*”并打印出结果。”生成代码存在错误，进行纠正“是在学校名称后面追加"*"，不是将"*"进行替换”答案依然不对，那就让他帮我写个“TextCNN代码”吧。很可惜，它又错了。生成代码只有全连接层，没有卷积层，感觉在代码方面能力有待提高，连错两个，也许是我之前的测试样例对它不友好。欢迎大家贴出测试代码方面的结果。

接下来测试一下“国粹”，问：“以“拣尽寒枝不肯栖”为题写一首以“念奴娇”为词牌名的宋词”再问：“以“报效国家”为藏头字，“闺怨思乡”为主题写一首七言绝句”一开始没理解藏头诗的含义，解释一些可以生成的很好，国粹加分，均好于之前测试的大模型，我愿称之为国粹之光。

再问：“历史上有没有一听就让人落泪的话？”跟其他大模型一样，内容上也会存在不符合客观事实的情况。又问了一遍，出现了“问中文回答英文”的情况，不能说回答的错误，但是回复中文也许会更加理想，可能是模型训练的不充分或者是数据集中存在这种中英对照数据。问问金庸小说的内容，没有胡扯，但是生成内容较短。但是增加输入长度之后，就会出现事实性错误，这也是“不做不错，多做多错”吧。角色扮演的效果也还很好的，可以按照角色，解决实际问题，问：“你是一个海康威视门禁系统故障的工程师，请帮我处理摄像机网路不通的问题”让它扮演文心一言模型，它十分抗拒，感觉阿里应该特意创建了类似的prompt和回答，但是扮演ChatGLM，它接受了，但是存在逻辑错误。

后续测试将持续更新~~

请多多关注知乎「刘聪NLP」，有问题的朋友也欢迎加我微信「logCong」私聊，交个朋友吧，一起学习，一起进步。我们的口号是“生命不止，学习不停”。

往期推荐：

继续滑动看下一个

NLP工作站

向上滑动看下一个

“家属和记者取得联系”：记者的退场意味深长

劲爆！为了姜萍两位女CEO互揭老底！

中石化一副总被曝出轨人妻，本人嚣张回应：旧情复燃尔

（待会删）大家低调浏览

又一女明星涉毒被判刑！自称为了“刺激大脑”创作，央视网发文痛批

阿里「通义千问」大模型-内测分享

您可能也对以下帖子感兴趣

“家属和记者取得联系”：记者的退场意味深长

劲爆！为了姜萍两位女CEO互揭老底！

中石化一副总被曝出轨人妻，本人嚣张回应：旧情复燃尔

（待会删）大家低调浏览

又一女明星涉毒被判刑！自称为了“刺激大脑”创作，央视网发文痛批

生成图片，分享到微信朋友圈

阿里「通义千问」大模型-内测分享

您可能也对以下帖子感兴趣